فهرست 1 مقدمه 2 اکتشاف 3 الگوریتم های یادگیری کنترل 3.1 ملاک بهینه 3.2 نیروی بیرحمانه 3.3 عملکرد ارزش 3.4 جستجوی خط مشی مستقیم 4 تئوری 5 پژوهش 6 مقایسه الگوریتم های یادگیری تقویتی 6.1 یادگیری تقویت عمیق 6.2 یادگیری تقویت معکوس 6.3 یادگیری کارآموزی 7 همچنین ببینید 8 منابع 9 خواندن بیشتر 10 لینک های خارجی مقدمه ویرایش قالب بندی معمولی سناریو تقویت آموزش (RL): یک عامل در یک محیط اقدام می کند ، که به عنوان پاداش و بازنمایی از دولت تعبیر می شود ، که به عامل